
您所在的位置:网站首页 pandas索引方式有哪些is ioc ix 多层级索引和高级索引


2024-07-14 10:48| 来源: 网络整理| 查看: 265


本章节包含了使用多层级索引 以及 其他高级索引特性。

请参阅 索引与选择数据来获得更多的通用索引方面的帮助文档

::: danger 警告



参见 cookbook,获取更多高级的使用技巧。


分层/多级索引在处理复杂的数据分析和数据操作方面为开发者奠定了基础,尤其是在处理高纬度数据处理上。本质上,它使您能够在较低维度的数据结构(如 Series(1d)和DataFrame (2d))中存储和操作任意维数的数据。

在本节中,我们将展示“层次”索引的确切含义,以及它如何与上面和前面部分描述的所有panda索引功能集成。稍后,在讨论分组 和数据透视与重塑性数据时,我们将展示一些重要的应用程序,以说明它如何帮助构建分析数据的结构。


在0.24.0版本中的改变:MultIndex.labels被更名为MultiIndex.codes ,同时 MultiIndex.set_labels 更名为 MultiIndex.set_codes.


MultiIndex 对象是标准索引对象 的分层模拟,标准索引对象通常将axis标签存储在panda对象中。您可以将MultiIndex看作一个元组数组,其中每个元组都是惟一的。可以从数组列表(使用 MultiIndex.from_arrays())、元组数组(使用MultiIndex.from_tuples())或交叉迭代器集(使用MultiIndex.from_product())或者将一个 DataFrame(使用using MultiIndex.from_frame())创建多索引。当传递一个元组列表时,索引构造函数将尝试返回一个MultiIndex。下面的示例演示了初始化多索引的不同方法。

In [1]: arrays = [['bar', 'bar', 'baz', 'baz', 'foo', 'foo', 'qux', 'qux'], ...: ['one', 'two', 'one', 'two', 'one', 'two', 'one', 'two']] ...: In [2]: tuples = list(zip(*arrays)) In [3]: tuples Out[3]: [('bar', 'one'), ('bar', 'two'), ('baz', 'one'), ('baz', 'two'), ('foo', 'one'), ('foo', 'two'), ('qux', 'one'), ('qux', 'two')] In [4]: index = pd.MultiIndex.from_tuples(tuples, names=['first', 'second']) In [5]: index Out[5]: MultiIndex([('bar', 'one'), ('bar', 'two'), ('baz', 'one'), ('baz', 'two'), ('foo', 'one'), ('foo', 'two'), ('qux', 'one'), ('qux', 'two')], names=['first', 'second']) In [6]: s = pd.Series(np.random.randn(8), index=index) In [7]: s Out[7]: first second bar one 0.469112 two -0.282863 baz one -1.509059 two -1.135632 foo one 1.212112 two -0.173215 qux one 0.119209 two -1.044236 dtype: float64

当您想要在两个迭代器中对每个元素进行配对时,可以更容易地使用 MultiIndex.from_product()方法:

In [8]: iterables = [['bar', 'baz', 'foo', 'qux'], ['one', 'two']] In [9]: pd.MultiIndex.from_product(iterables, names=['first', 'second']) Out[9]: MultiIndex([('bar', 'one'), ('bar', 'two'), ('baz', 'one'), ('baz', 'two'), ('foo', 'one'), ('foo', 'two'), ('qux', 'one'), ('qux', 'two')], names=['first', 'second'])

还可以使用 MultiIndex.from_frame()方法直接将一个DataFrame对象构造一个多索引。这是MultiIndex.to_frame()的一个补充方法。


In [10]: df = pd.DataFrame([['bar', 'one'], ['bar', 'two'], ....: ['foo', 'one'], ['foo', 'two']], ....: columns=['first', 'second']) ....: In [11]: pd.MultiIndex.from_frame(df) Out[11]: MultiIndex([('bar', 'one'), ('bar', 'two'), ('foo', 'one'), ('foo', 'two')], names=['first', 'second'])


In [12]: arrays = [np.array(['bar', 'bar', 'baz', 'baz', 'foo', 'foo', 'qux', 'qux']), ....: np.array(['one', 'two', 'one', 'two', 'one', 'two', 'one', 'two'])] ....: In [13]: s = pd.Series(np.random.randn(8), index=arrays) In [14]: s Out[14]: bar one -0.861849 two -2.104569 baz one -0.494929 two 1.071804 foo one 0.721555 two -0.706771 qux one -1.039575 two 0.271860 dtype: float64 In [15]: df = pd.DataFrame(np.random.randn(8, 4), index=arrays) In [16]: df Out[16]: 0 1 2 3 bar one -0.424972 0.567020 0.276232 -1.087401 two -0.673690 0.113648 -1.478427 0.524988 baz one 0.404705 0.577046 -1.715002 -1.039268 two -0.370647 -1.157892 -1.344312 0.844885 foo one 1.075770 -0.109050 1.643563 -1.469388 two 0.357021 -0.674600 -1.776904 -0.968914 qux one -1.294524 0.413738 0.276662 -0.472035 two -0.013960 -0.362543 -0.006154 -0.923061


In [17]: df.index.names Out[17]: FrozenList([None, None])


In [18]: df = pd.DataFrame(np.random.randn(3, 8), index=['A', 'B', 'C'], columns=index) In [19]: df Out[19]: first bar baz foo qux second one two one two one two one two A 0.895717 0.805244 -1.206412 2.565646 1.431256 1.340309 -1.170299 -0.226169 B 0.410835 0.813850 0.132003 -0.827317 -0.076467 -1.187678 1.130127 -1.436737 C -1.413681 1.607920 1.024180 0.569605 0.875906 -2.211372 0.974466 -2.006747 In [20]: pd.DataFrame(np.random.randn(6, 6), index=index[:6], columns=index[:6]) Out[20]: first bar baz foo second one two one two one two first second bar one -0.410001 -0.078638 0.545952 -1.219217 -1.226825 0.769804 two -1.281247 -0.727707 -0.121306 -0.097883 0.695775 0.341734 baz one 0.959726 -1.110336 -0.619976 0.149748 -0.732339 0.687738 two 0.176444 0.403310 -0.154951 0.301624 -2.179861 -1.369849 foo one -0.954208 1.462696 -1.743161 -0.826591 -0.345352 1.314232 two 0.690579 0.995761 2.396780 0.014871 3.357427 -0.317441


In [21]: with pd.option_context('display.multi_sparse', False): ....: df ....:


In [22]: pd.Series(np.random.randn(8), index=tuples) Out[22]: (bar, one) -1.236269 (bar, two) 0.896171 (baz, one) -0.487602 (baz, two) -0.082240 (foo, one) -2.182937 (foo, two) 0.380396 (qux, one) 0.084844 (qux, two) 0.432390 dtype: float64




In [23]: index.get_level_values(0) Out[23]: Index(['bar', 'bar', 'baz', 'baz', 'foo', 'foo', 'qux', 'qux'], dtype='object', name='first') In [24]: index.get_level_values('second') Out[24]: Index(['one', 'two', 'one', 'two', 'one', 'two', 'one', 'two'], dtype='object', name='second') 基本索引轴上的多索引

层次索引的一个重要特性是,您可以通过partial标签来选择数据,该标签标识数据中的子组。局部 选择“降低”层次索引的级别,其结果完全类似于在常规数据Dataframe中选择列:

In [25]: df['bar'] Out[25]: second one two A 0.895717 0.805244 B 0.410835 0.813850 C -1.413681 1.607920 In [26]: df['bar', 'one'] Out[26]: A 0.895717 B 0.410835 C -1.413681 Name: (bar, one), dtype: float64 In [27]: df['bar']['one'] Out[27]: A 0.895717 B 0.410835 C -1.413681 Name: one, dtype: float64 In [28]: s['qux'] Out[28]: one -1.039575 two 0.271860 dtype: float64



MultiIndex 保存了所有被定义的索引层级,即使它们实际上没有被使用。在切割索引时,您可能会注意到这一点。例如:

In [29]: df.columns.levels # original MultiIndex Out[29]: FrozenList([['bar', 'baz', 'foo', 'qux'], ['one', 'two']]) In [30]: df[['foo','qux']].columns.levels # sliced Out[30]: FrozenList([['bar', 'baz', 'foo', 'qux'], ['one', 'two']])


In [31]: df[['foo', 'qux']].columns.to_numpy() Out[31]: array([('foo', 'one'), ('foo', 'two'), ('qux', 'one'), ('qux', 'two')], dtype=object) # for a specific level In [32]: df[['foo', 'qux']].columns.get_level_values(0) Out[32]: Index(['foo', 'foo', 'qux', 'qux'], dtype='object', name='first')



In [33]: new_mi = df[['foo', 'qux']].columns.remove_unused_levels() In [34]: new_mi.levels Out[34]: FrozenList([['foo', 'qux'], ['one', 'two']]) 数据对齐和使用 reindex


In [35]: s + s[:-2] Out[35]: bar one -1.723698 two -4.209138 baz one -0.989859 two 2.143608 foo one 1.443110 two -1.413542 qux one NaN two NaN dtype: float64 In [36]: s + s[::2] Out[36]: bar one -1.723698 two NaN baz one -0.989859 two NaN foo one 1.443110 two NaN qux one -2.079150 two NaN dtype: float64

Series/DataFrames对象的 reindex() 方法可以调用另一个MultiIndex ,甚至一个列表或数组元组:

In [37]: s.reindex(index[:3]) Out[37]: first second bar one -0.861849 two -2.104569 baz one -0.494929 dtype: float64 In [38]: s.reindex([('foo', 'two'), ('bar', 'one'), ('qux', 'one'), ('baz', 'one')]) Out[38]: foo two -0.706771 bar one -0.861849 qux one -1.039575 baz one -0.494929 dtype: float64 具有层次索引的高级索引方法

语法上,使用.loc方法,在高级索引中加入 MultiIndex(多层索引)是有一些挑战的,但是我们一直在尽己所能地去实现这个功能。简单来说,多层索引的索引键(keys)来自元组的格式。例如,下列代码将会按照你的期望工作:

In [39]: df = df.T In [40]: df Out[40]: A B C first second bar one 0.895717 0.410835 -1.413681 two 0.805244 0.813850 1.607920 baz one -1.206412 0.132003 1.024180 two 2.565646 -0.827317 0.569605 foo one 1.431256 -0.076467 0.875906 two 1.340309 -1.187678 -2.211372 qux one -1.170299 1.130127 0.974466 two -0.226169 -1.436737 -2.006747 In [41]: df.loc[('bar', 'two')] Out[41]: A 0.805244 B 0.813850 C 1.607920 Name: (bar, two), dtype: float64

注意 df.loc['bar', 'two']也将会在这个用例中正常工作,但是这种便捷的简写方法总的来说是容易产生歧义的。

如果你也希望使用 .loc对某个特定的列进行索引,你需要使用如下的元组样式:

In [42]: df.loc[('bar', 'two'), 'A'] Out[42]: 0.8052440253863785





In [43]: df.loc['baz':'foo'] Out[43]: A B C first second baz one -1.206412 0.132003 1.024180 two 2.565646 -0.827317 0.569605 foo one 1.431256 -0.076467 0.875906 two 1.340309 -1.187678 -2.211372

您可以通过使用一个元组的切片,提供一个值的范围(a ‘range’ of values),来进行切片

In [44]: df.loc[('baz', 'two'):('qux', 'one')] Out[44]: A B C first second baz two 2.565646 -0.827317 0.569605 foo one 1.431256 -0.076467 0.875906 two 1.340309 -1.187678 -2.211372 qux one -1.170299 1.130127 0.974466 In [45]: df.loc[('baz', 'two'):'foo'] Out[45]: A B C first second baz two 2.565646 -0.827317 0.569605 foo one 1.431256 -0.076467 0.875906 two 1.340309 -1.187678 -2.211372


In [46]: df.loc[[('bar', 'two'), ('qux', 'one')]] Out[46]: A B C first second bar two 0.805244 0.813850 1.607920 qux one -1.170299 1.130127 0.974466

::: tip 小技巧

在pandas中,元组和列表,在索引时,是有区别的。一个元组会被识别为一个多层级的索引值(key),而列表被用于表明多个不同的索引值(several keys)。换句话说,元组是按照横向展开的,即水平层级(trasvering levels),而列表是纵向的,即扫描层级(scanning levels)。



In [47]: s = pd.Series([1, 2, 3, 4, 5, 6], ....: index=pd.MultiIndex.from_product([["A", "B"], ["c", "d", "e"]])) ....: In [48]: s.loc[[("A", "c"), ("B", "d")]] # list of tuples Out[48]: A c 1 B d 5 dtype: int64 In [49]: s.loc[(["A", "B"], ["c", "d"])] # tuple of lists Out[49]: A c 1 d 2 B c 4 d 5 dtype: int64 使用切片器


你可以提供任意的选择器,就仿佛你按照标签索引一样,参见按照标签索引, 包含切片,标签构成的列表,标签,和布尔值索引器。



::: danger 警告 你需要在.loc中声明所有的维度,这意味着同时包含行索引以及列索引。在一些情况下,索引器中的数据有可能会被错误地识别为在两个维度同时进行索引,而不是只对行进行多层级索引。


df.loc[(slice('A1', 'A3'), ...), :] # noqa: E999


df.loc[(slice('A1', 'A3'), ...)] # noqa: E999


In [50]: def mklbl(prefix, n): ....: return ["%s%s" % (prefix, i) for i in range(n)] ....: In [51]: miindex = pd.MultiIndex.from_product([mklbl('A', 4), ....: mklbl('B', 2), ....: mklbl('C', 4), ....: mklbl('D', 2)]) ....: In [52]: micolumns = pd.MultiIndex.from_tuples([('a', 'foo'), ('a', 'bar'), ....: ('b', 'foo'), ('b', 'bah')], ....: names=['lvl0', 'lvl1']) ....: In [53]: dfmi = pd.DataFrame(np.arange(len(miindex) * len(micolumns)) ....: .reshape((len(miindex), len(micolumns))), ....: index=miindex, ....: columns=micolumns).sort_index().sort_index(axis=1) ....: In [54]: dfmi Out[54]: lvl0 a b lvl1 bar foo bah foo A0 B0 C0 D0 1 0 3 2 D1 5 4 7 6 C1 D0 9 8 11 10 D1 13 12 15 14 C2 D0 17 16 19 18 ... ... ... ... ... A3 B1 C1 D1 237 236 239 238 C2 D0 241 240 243 242 D1 245 244 247 246 C3 D0 249 248 251 250 D1 253 252 255 254 [64 rows x 4 columns]


In [55]: dfmi.loc[(slice('A1', 'A3'), slice(None), ['C1', 'C3']), :] Out[55]: lvl0 a b lvl1 bar foo bah foo A1 B0 C1 D0 73 72 75 74 D1 77 76 79 78 C3 D0 89 88 91 90 D1 93 92 95 94 B1 C1 D0 105 104 107 106 ... ... ... ... ... A3 B0 C3 D1 221 220 223 222 B1 C1 D0 233 232 235 234 D1 237 236 239 238 C3 D0 249 248 251 250 D1 253 252 255 254 [24 rows x 4 columns]

你可以使用 pandas.IndexSlice,即使用:,一个更为符合习惯的语法,而不是使用slice(None)。

In [56]: idx = pd.IndexSlice In [57]: dfmi.loc[idx[:, :, ['C1', 'C3']], idx[:, 'foo']] Out[57]: lvl0 a b lvl1 foo foo A0 B0 C1 D0 8 10 D1 12 14 C3 D0 24 26 D1 28 30 B1 C1 D0 40 42 ... ... ... A3 B0 C3 D1 220 222 B1 C1 D0 232 234 D1 236 238 C3 D0 248 250 D1 252 254 [32 rows x 2 columns]


In [58]: dfmi.loc['A1', (slice(None), 'foo')] Out[58]: lvl0 a b lvl1 foo foo B0 C0 D0 64 66 D1 68 70 C1 D0 72 74 D1 76 78 C2 D0 80 82 ... ... ... B1 C1 D1 108 110 C2 D0 112 114 D1 116 118 C3 D0 120 122 D1 124 126 [16 rows x 2 columns] In [59]: dfmi.loc[idx[:, :, ['C1', 'C3']], idx[:, 'foo']] Out[59]: lvl0 a b lvl1 foo foo A0 B0 C1 D0 8 10 D1 12 14 C3 D0 24 26 D1 28 30 B1 C1 D0 40 42 ... ... ... A3 B0 C3 D1 220 222 B1 C1 D0 232 234 D1 236 238 C3 D0 248 250 D1 252 254 [32 rows x 2 columns]


In [60]: mask = dfmi[('a', 'foo')] > 200 In [61]: dfmi.loc[idx[mask, :, ['C1', 'C3']], idx[:, 'foo']] Out[61]: lvl0 a b lvl1 foo foo A3 B0 C1 D1 204 206 C3 D0 216 218 D1 220 222 B1 C1 D0 232 234 D1 236 238 C3 D0 248 250 D1 252 254


In [62]: dfmi.loc(axis=0)[:, :, ['C1', 'C3']] Out[62]: lvl0 a b lvl1 bar foo bah foo A0 B0 C1 D0 9 8 11 10 D1 13 12 15 14 C3 D0 25 24 27 26 D1 29 28 31 30 B1 C1 D0 41 40 43 42 ... ... ... ... ... A3 B0 C3 D1 221 220 223 222 B1 C1 D0 233 232 235 234 D1 237 236 239 238 C3 D0 249 248 251 250 D1 253 252 255 254 [32 rows x 4 columns]


In [63]: df2 = dfmi.copy() In [64]: df2.loc(axis=0)[:, :, ['C1', 'C3']] = -10 In [65]: df2 Out[65]: lvl0 a b lvl1 bar foo bah foo A0 B0 C0 D0 1 0 3 2 D1 5 4 7 6 C1 D0 -10 -10 -10 -10 D1 -10 -10 -10 -10 C2 D0 17 16 19 18 ... ... ... ... ... A3 B1 C1 D1 -10 -10 -10 -10 C2 D0 241 240 243 242 D1 245 244 247 246 C3 D0 -10 -10 -10 -10 D1 -10 -10 -10 -10 [64 rows x 4 columns]


In [66]: df2 = dfmi.copy() In [67]: df2.loc[idx[:, :, ['C1', 'C3']], :] = df2 * 1000 In [68]: df2 Out[68]: lvl0 a b lvl1 bar foo bah foo A0 B0 C0 D0 1 0 3 2 D1 5 4 7 6 C1 D0 9000 8000 11000 10000 D1 13000 12000 15000 14000 C2 D0 17 16 19 18 ... ... ... ... ... A3 B1 C1 D1 237000 236000 239000 238000 C2 D0 241 240 243 242 D1 245 244 247 246 C3 D0 249000 248000 251000 250000 D1 253000 252000 255000 254000 [64 rows x 4 columns] 交叉选择

DataFrame 的 xs()方法接受一个额外的参数,从而可以简便地在某个特定的多级索引中的某一个层级进行数据的选取。

In [69]: df Out[69]: A B C first second bar one 0.895717 0.410835 -1.413681 two 0.805244 0.813850 1.607920 baz one -1.206412 0.132003 1.024180 two 2.565646 -0.827317 0.569605 foo one 1.431256 -0.076467 0.875906 two 1.340309 -1.187678 -2.211372 qux one -1.170299 1.130127 0.974466 two -0.226169 -1.436737 -2.006747 In [70]: df.xs('one', level='second') Out[70]: A B C first bar 0.895717 0.410835 -1.413681 baz -1.206412 0.132003 1.024180 foo 1.431256 -0.076467 0.875906 qux -1.170299 1.130127 0.974466 # using the slicers In [71]: df.loc[(slice(None), 'one'), :] Out[71]: A B C first second bar one 0.895717 0.410835 -1.413681 baz one -1.206412 0.132003 1.024180 foo one 1.431256 -0.076467 0.875906 qux one -1.170299 1.130127 0.974466


In [72]: df = df.T In [73]: df.xs('one', level='second', axis=1) Out[73]: first bar baz foo qux A 0.895717 -1.206412 1.431256 -1.170299 B 0.410835 0.132003 -0.076467 1.130127 C -1.413681 1.024180 0.875906 0.974466 # using the slicers In [74]: df.loc[:, (slice(None), 'one')] Out[74]: first bar baz foo qux second one one one one A 0.895717 -1.206412 1.431256 -1.170299 B 0.410835 0.132003 -0.076467 1.130127 C -1.413681 1.024180 0.875906 0.974466


In [75]: df.xs(('one', 'bar'), level=('second', 'first'), axis=1) Out[75]: first bar second one A 0.895717 B 0.410835 C -1.413681 # using the slicers In [76]: df.loc[:, ('bar', 'one')] Out[76]: A 0.895717 B 0.410835 C -1.413681 Name: (bar, one), dtype: float64

您可以向xs传入 drop_level=False 来保留那些已经选取的层级。

In [77]: df.xs('one', level='second', axis=1, drop_level=False) Out[77]: first bar baz foo qux second one one one one A 0.895717 -1.206412 1.431256 -1.170299 B 0.410835 0.132003 -0.076467 1.130127 C -1.413681 1.024180 0.875906 0.974466

请比较上面,使用 drop_level=True(默认值)的结果。

In [78]: df.xs('one', level='second', axis=1, drop_level=True) Out[78]: first bar baz foo qux A 0.895717 -1.206412 1.431256 -1.170299 B 0.410835 0.132003 -0.076467 1.130127 C -1.413681 1.024180 0.875906 0.974466 高级重命名索引及对齐

level参数已经被加入到pandas对象中的 reindex() 和 align() 方法中。这将有助于沿着一个层级来广播值(broadcast values)。例如:

In [79]: midx = pd.MultiIndex(levels=[['zero', 'one'], ['x', 'y']], ....: codes=[[1, 1, 0, 0], [1, 0, 1, 0]]) ....: In [80]: df = pd.DataFrame(np.random.randn(4, 2), index=midx) In [81]: df Out[81]: 0 1 one y 1.519970 -0.493662 x 0.600178 0.274230 zero y 0.132885 -0.023688 x 2.410179 1.450520 In [82]: df2 = df.mean(level=0) In [83]: df2 Out[83]: 0 1 one 1.060074 -0.109716 zero 1.271532 0.713416 In [84]: df2.reindex(df.index, level=0) Out[84]: 0 1 one y 1.060074 -0.109716 x 1.060074 -0.109716 zero y 1.271532 0.713416 x 1.271532 0.713416 # aligning In [85]: df_aligned, df2_aligned = df.align(df2, level=0) In [86]: df_aligned Out[86]: 0 1 one y 1.519970 -0.493662 x 0.600178 0.274230 zero y 0.132885 -0.023688 x 2.410179 1.450520 In [87]: df2_aligned Out[87]: 0 1 one y 1.060074 -0.109716 x 1.060074 -0.109716 zero y 1.271532 0.713416 x 1.271532 0.713416 使用swaplevel来交换层级


In [88]: df[:5] Out[88]: 0 1 one y 1.519970 -0.493662 x 0.600178 0.274230 zero y 0.132885 -0.023688 x 2.410179 1.450520 In [89]: df[:5].swaplevel(0, 1, axis=0) Out[89]: 0 1 y one 1.519970 -0.493662 x one 0.600178 0.274230 y zero 0.132885 -0.023688 x zero 2.410179 1.450520 使用reorder_levels来进行层级重排序

reorder_levels()是一个更一般化的 swaplevel方法,允许您用简单的一步来重排列索引的层级:

In [90]: df[:5].reorder_levels([1, 0], axis=0) Out[90]: 0 1 y one 1.519970 -0.493662 x one 0.600178 0.274230 y zero 0.132885 -0.023688 x zero 2.410179 1.450520 对索引和多层索引进行重命名


In [91]: df.rename(columns={0: "col0", 1: "col1"}) Out[91]: col0 col1 one y 1.519970 -0.493662 x 0.600178 0.274230 zero y 0.132885 -0.023688 x 2.410179 1.450520


In [92]: df.rename(index={"one": "two", "y": "z"}) Out[92]: 0 1 two z 1.519970 -0.493662 x 0.600178 0.274230 zero z 0.132885 -0.023688 x 2.410179 1.450520

rename_axis() 方法可以用于对Index 或者 MultiIndex进行重命名。尤其的,你可以明确MultiIndex中的不同层级的名称,这可以被用于在之后使用 reset_index() ,把多层级索引的值转换为一个列

In [93]: df.rename_axis(index=['abc', 'def']) Out[93]: 0 1 abc def one y 1.519970 -0.493662 x 0.600178 0.274230 zero y 0.132885 -0.023688 x 2.410179 1.450520

注意,DataFrame的列也是一个索引,因此在rename_axis中使用 columns 参数,将会改变那个索引的名称

In [94]: df.rename_axis(columns="Cols").columns Out[94]: RangeIndex(start=0, stop=2, step=1, name='Cols')

rename 和rename_axis都支持一个明确的字典,Series 或者一个映射函数,将标签,名称映射为新的值


对于拥有多层级索引的对象来说,你可以通过排序来是的索引或切片更为高效。就如同其他任何的索引操作一样,你可以使用 sort_index方法来实现。

In [95]: import random In [96]: random.shuffle(tuples) In [97]: s = pd.Series(np.random.randn(8), index=pd.MultiIndex.from_tuples(tuples)) In [98]: s Out[98]: baz one 0.206053 foo two -0.251905 qux one -2.213588 foo one 1.063327 bar two 1.266143 baz two 0.299368 bar one -0.863838 qux two 0.408204 dtype: float64 In [99]: s.sort_index() Out[99]: bar one -0.863838 two 1.266143 baz one 0.206053 two 0.299368 foo one 1.063327 two -0.251905 qux one -2.213588 two 0.408204 dtype: float64 In [100]: s.sort_index(level=0) Out[100]: bar one -0.863838 two 1.266143 baz one 0.206053 two 0.299368 foo one 1.063327 two -0.251905 qux one -2.213588 two 0.408204 dtype: float64 In [101]: s.sort_index(level=1) Out[101]: bar one -0.863838 baz one 0.206053 foo one 1.063327 qux one -2.213588 bar two 1.266143 baz two 0.299368 foo two -0.251905 qux two 0.408204 dtype: float64

如果你的多层级索引都被命名了的话,你也可以向 sort_index 传入一个层级名称。

In [102]: s.index.set_names(['L1', 'L2'], inplace=True) In [103]: s.sort_index(level='L1') Out[103]: L1 L2 bar one -0.863838 two 1.266143 baz one 0.206053 two 0.299368 foo one 1.063327 two -0.251905 qux one -2.213588 two 0.408204 dtype: float64 In [104]: s.sort_index(level='L2') Out[104]: L1 L2 bar one -0.863838 baz one 0.206053 foo one 1.063327 qux one -2.213588 bar two 1.266143 baz two 0.299368 foo two -0.251905 qux two 0.408204 dtype: float64


In [105]: df.T.sort_index(level=1, axis=1) Out[105]: one zero one zero x x y y 0 0.600178 2.410179 1.519970 0.132885 1 0.274230 1.450520 -0.493662 -0.023688


In [106]: dfm = pd.DataFrame({'jim': [0, 0, 1, 1], .....: 'joe': ['x', 'x', 'z', 'y'], .....: 'jolie': np.random.rand(4)}) .....: In [107]: dfm = dfm.set_index(['jim', 'joe']) In [108]: dfm Out[108]: jolie jim joe 0 x 0.490671 x 0.120248 1 z 0.537020 y 0.110968 In [4]: dfm.loc[(1, 'z')] PerformanceWarning: indexing past lexsort depth may impact performance. Out[4]: jolie jim joe 1 z 0.64094


In [5]: dfm.loc[(0, 'y'):(1, 'z')] UnsortedIndexError: 'Key length (2) was greater than MultiIndex lexsort depth (1)'

在MultiIndex上使用 is_lexsorted() 方法,你可以查看这个索引是否已经被排序。而使用lexsort_depth 属性则可以返回排序的深度

In [109]: dfm.index.is_lexsorted() Out[109]: False In [110]: dfm.index.lexsort_depth Out[110]: 1 In [111]: dfm = dfm.sort_index() In [112]: dfm Out[112]: jolie jim joe 0 x 0.490671 x 0.120248 1 y 0.110968 z 0.537020 In [113]: dfm.index.is_lexsorted() Out[113]: True In [114]: dfm.index.lexsort_depth Out[114]: 2


In [115]: dfm.loc[(0, 'y'):(1, 'z')] Out[115]: jolie jim joe 1 y 0.110968 z 0.537020 Take方法

与NumPy的ndarrays相似,pandas的 Index, Series,和DataFrame 也提供 take() 方法。他可以沿着某个维度,按照给定的索引取回所有的元素。这个给定的索引必须要是一个由整数组成的列表或者ndarray,用以指明在索引中的位置。take 也可以接受负整数,作为相对于结尾的相对位置。

In [116]: index = pd.Index(np.random.randint(0, 1000, 10)) In [117]: index Out[117]: Int64Index([214, 502, 712, 567, 786, 175, 993, 133, 758, 329], dtype='int64') In [118]: positions = [0, 9, 3] In [119]: index[positions] Out[119]: Int64Index([214, 329, 567], dtype='int64') In [120]: index.take(positions) Out[120]: Int64Index([214, 329, 567], dtype='int64') In [121]: ser = pd.Series(np.random.randn(10)) In [122]: ser.iloc[positions] Out[122]: 0 -0.179666 9 1.824375 3 0.392149 dtype: float64 In [123]: ser.take(positions) Out[123]: 0 -0.179666 9 1.824375 3 0.392149 dtype: float64


In [124]: frm = pd.DataFrame(np.random.randn(5, 3)) In [125]: frm.take([1, 4, 3]) Out[125]: 0 1 2 1 -1.237881 0.106854 -1.276829 4 0.629675 -1.425966 1.857704 3 0.979542 -1.633678 0.615855 In [126]: frm.take([0, 2], axis=1) Out[126]: 0 2 0 0.595974 0.601544 1 -1.237881 -1.276829 2 -0.767101 1.499591 3 0.979542 0.615855 4 0.629675 1.857704

需要注意的是, pandas对象的take 方法并不会正常地工作在布尔索引上,并且有可能会返回一切意外的结果。

In [127]: arr = np.random.randn(10) In [128]: arr.take([False, False, True, True]) Out[128]: array([-1.1935, -1.1935, 0.6775, 0.6775]) In [129]: arr[[0, 1]] Out[129]: array([-1.1935, 0.6775]) In [130]: ser = pd.Series(np.random.randn(10)) In [131]: ser.take([False, False, True, True]) Out[131]: 0 0.233141 0 0.233141 1 -0.223540 1 -0.223540 dtype: float64 In [132]: ser.iloc[[0, 1]] Out[132]: 0 0.233141 1 -0.223540 dtype: float64

最后,关于性能方面的一个小建议,因为 take 方法处理的是一个范围更窄的输入,因此会比话实索引(fancy indexing)的速度快很多。

In [133]: arr = np.random.randn(10000, 5) In [134]: indexer = np.arange(10000) In [135]: random.shuffle(indexer) In [136]: %timeit arr[indexer] .....: %timeit arr.take(indexer, axis=0) .....: 152 us +- 988 ns per loop (mean +- std. dev. of 7 runs, 10000 loops each) 41.7 us +- 204 ns per loop (mean +- std. dev. of 7 runs, 10000 loops each) In [137]: ser = pd.Series(arr[:, 0]) In [138]: %timeit ser.iloc[indexer] .....: %timeit ser.take(indexer) .....: 120 us +- 1.05 us per loop (mean +- std. dev. of 7 runs, 10000 loops each) 110 us +- 795 ns per loop (mean +- std. dev. of 7 runs, 10000 loops each) 索引类型

我们在前面已经较为深入地探讨过了多层索引。你可以在 这里,可以找到关于 DatetimeIndex 和PeriodIndex的说明文件。在 这里,你可以找到关于TimedeltaIndex的说明。

In the following sub-sections we will highlight some other index types.



CategoricalIndex分类索引 这种索引类型非常适合有重复的索引。这是一个围绕 Categorical 而创建的容器。这可以非常高效地存储和索引的具有大量重复元素的索引。

In [139]: from pandas.api.types import CategoricalDtype In [140]: df = pd.DataFrame({'A': np.arange(6), .....: 'B': list('aabbca')}) .....: In [141]: df['B'] = df['B'].astype(CategoricalDtype(list('cab'))) In [142]: df Out[142]: A B 0 0 a 1 1 a 2 2 b 3 3 b 4 4 c 5 5 a In [143]: df.dtypes Out[143]: A int64 B category dtype: object In [144]: df.B.cat.categories Out[144]: Index(['c', 'a', 'b'], dtype='object')

通过设置索引将会建立一个 CategoricalIndex 分类索引.

In [145]: df2 = df.set_index('B') In [146]: df2.index Out[146]: CategoricalIndex(['a', 'a', 'b', 'b', 'c', 'a'], categories=['c', 'a', 'b'], ordered=False, name='B', dtype='category')

使用 __getitem__/.iloc/.loc 进行索引,在含有重复值的索引上的工作原理相似。索引值必须在一个分类中,否者将会引发KeyError错误。

In [147]: df2.loc['a'] Out[147]: A B a 0 a 1 a 5

CategoricalIndex 在索引之后也会被保留:

In [148]: df2.loc['a'].index Out[148]: CategoricalIndex(['a', 'a', 'a'], categories=['c', 'a', 'b'], ordered=False, name='B', dtype='category')

索引排序将会按照类别清单中的顺序进行(我们已经基于 CategoricalDtype(list('cab'))建立了一个索引,因此排序的顺序是cab)

In [149]: df2.sort_index() Out[149]: A B c 4 a 0 a 1 a 5 b 2 b 3


In [150]: df2.groupby(level=0).sum() Out[150]: A B c 4 a 6 b 5 In [151]: df2.groupby(level=0).sum().index Out[151]: CategoricalIndex(['c', 'a', 'b'], categories=['c', 'a', 'b'], ordered=False, name='B', dtype='category')

重设索引的操作将会根据输入的索引值返回一个索引。传入一个列表,将会返回一个最普通的Index;如果使用类别对象Categorical,则会返回一个分类索引CategoricalIndex,按照其中传入的的类别值Categorical dtype来进行索引。正如同你可以对任意pandas的索引进行重新索引一样,这将允许你随意索引任意的索引值,即便它们并不存在在你的类别对象中。

In [152]: df2.reindex(['a', 'e']) Out[152]: A B a 0.0 a 1.0 a 5.0 e NaN In [153]: df2.reindex(['a', 'e']).index Out[153]: Index(['a', 'a', 'a', 'e'], dtype='object', name='B') In [154]: df2.reindex(pd.Categorical(['a', 'e'], categories=list('abcde'))) Out[154]: A B a 0.0 a 1.0 a 5.0 e NaN In [155]: df2.reindex(pd.Categorical(['a', 'e'], categories=list('abcde'))).index Out[155]: CategoricalIndex(['a', 'a', 'a', 'e'], categories=['a', 'b', 'c', 'd', 'e'], ordered=False, name='B', dtype='category')

::: danger 警告


In [9]: df3 = pd.DataFrame({'A': np.arange(6), 'B': pd.Series(list('aabbca')).astype('category')}) In [11]: df3 = df3.set_index('B') In [11]: df3.index Out[11]: CategoricalIndex(['a', 'a', 'b', 'b', 'c', 'a'], categories=['a', 'b', 'c'], ordered=False, name='B', dtype='category') In [12]: pd.concat([df2, df3]) TypeError: categories must match existing categories when appending



::: danger 警告

使用浮点数进行基于数值的索引已经再0.18.0的版本中进行了声明。想查看更改的汇总,请参见 这里。 :::

Int64Index 64位整型索引是pandas中的一种非常基本的索引操作。这是一个不可变的数组组成的一个有序的,可切片的集合。再0.18.0之前,Int64Index是会为所有NDFrame 对象提供默认的索引。

RangeIndex 范围索引是64位整型索引的子集,在v0.18.0版本加入。现在由范围索引来为所有的NDFrame对象提供默认索引。 RangeIndex是一个对于 Int64Index 的优化版本,能够提供一个有序且严格单调的集合。这个索引与python的 range types是相似的


默认情况下,当传入浮点数、或者浮点整型混合数的时候,一个64位浮点索引 Float64Index将会自动被建立。这样将能够确保一个存粹而统一的基于标签的索引切片行为,这样[],ix,loc对于标量索引和切片的工作行为将会完全一致。

In [156]: indexf = pd.Index([1.5, 2, 3, 4.5, 5]) In [157]: indexf Out[157]: Float64Index([1.5, 2.0, 3.0, 4.5, 5.0], dtype='float64') In [158]: sf = pd.Series(range(5), index=indexf) In [159]: sf Out[159]: 1.5 0 2.0 1 3.0 2 4.5 3 5.0 4 dtype: int64

标量选择对于[],.loc永远都是基于标签的。一个整型将会自动匹配一个浮点标签(例如,3 等于 3.0)

In [160]: sf[3] Out[160]: 2 In [161]: sf[3.0] Out[161]: 2 In [162]: sf.loc[3] Out[162]: 2 In [163]: sf.loc[3.0] Out[163]: 2


In [164]: sf.iloc[3] Out[164]: 3


In [165]: sf[2:4] Out[165]: 2.0 1 3.0 2 dtype: int64 In [166]: sf.loc[2:4] Out[166]: 2.0 1 3.0 2 dtype: int64 In [167]: sf.iloc[2:4] Out[167]: 3.0 2 4.5 3 dtype: int64


In [168]: sf[2.1:4.6] Out[168]: 3.0 2 4.5 3 dtype: int64 In [169]: sf.loc[2.1:4.6] Out[169]: 3.0 2 4.5 3 dtype: int64


In [1]: pd.Series(range(5))[3.5] TypeError: the label [3.5] is not a proper indexer for this index type (Int64Index) In [1]: pd.Series(range(5))[3.5:4.5] TypeError: the slice start [3.5] is not a proper indexer for this index type (Int64Index)

::: danger 警告


In [3]: pd.Series(range(5)).iloc[3.0] TypeError: cannot do positional indexing on with these indexers [3.0] of



In [170]: dfir = pd.concat([pd.DataFrame(np.random.randn(5, 2), .....: index=np.arange(5) * 250.0, .....: columns=list('AB')), .....: pd.DataFrame(np.random.randn(6, 2), .....: index=np.arange(4, 10) * 250.1, .....: columns=list('AB'))]) .....: In [171]: dfir Out[171]: A B 0.0 -0.435772 -1.188928 250.0 -0.808286 -0.284634 500.0 -1.815703 1.347213 750.0 -0.243487 0.514704 1000.0 1.162969 -0.287725 1000.4 -0.179734 0.993962 1250.5 -0.212673 0.909872 1500.6 -0.733333 -0.349893 1750.7 0.456434 -0.306735 2000.8 0.553396 0.166221 2250.9 -0.101684 -0.734907


In [172]: dfir[0:1000.4] Out[172]: A B 0.0 -0.435772 -1.188928 250.0 -0.808286 -0.284634 500.0 -1.815703 1.347213 750.0 -0.243487 0.514704 1000.0 1.162969 -0.287725 1000.4 -0.179734 0.993962 In [173]: dfir.loc[0:1001, 'A'] Out[173]: 0.0 -0.435772 250.0 -0.808286 500.0 -1.815703 750.0 -0.243487 1000.0 1.162969 1000.4 -0.179734 Name: A, dtype: float64 In [174]: dfir.loc[1000.4] Out[174]: A -0.179734 B 0.993962 Name: 1000.4, dtype: float64


In [175]: dfir[0:1000] Out[175]: A B 0.0 -0.435772 -1.188928 250.0 -0.808286 -0.284634 500.0 -1.815703 1.347213 750.0 -0.243487 0.514704 1000.0 1.162969 -0.287725


In [176]: dfir.iloc[0:5] Out[176]: A B 0.0 -0.435772 -1.188928 250.0 -0.808286 -0.284634 500.0 -1.815703 1.347213 750.0 -0.243487 0.514704 1000.0 1.162969 -0.287725 间隔索引

0.20.0中新加入 IntervalIndex和它自己特有的IntervalDtype以及 Interval 标量类型,在pandas中,间隔数据是获得头等支持的。

IntervalIndex间隔索引允许一些唯一的索引,并且也是 cut() 和qcut()的返回类型

使用间隔索引来进行数据索引 In [177]: df = pd.DataFrame({'A': [1, 2, 3, 4]}, .....: index=pd.IntervalIndex.from_breaks([0, 1, 2, 3, 4])) .....: In [178]: df Out[178]: A (0, 1] 1 (1, 2] 2 (2, 3] 3 (3, 4] 4

在间隔序列上使用基于标签的索引.loc ,正如你所预料到的,将会选择那个特定的间隔

In [179]: df.loc[2] Out[179]: A 2 Name: (1, 2], dtype: int64 In [180]: df.loc[[2, 3]] Out[180]: A (1, 2] 2 (2, 3] 3


In [181]: df.loc[2.5] Out[181]: A 3 Name: (2, 3], dtype: int64 In [182]: df.loc[[2.5, 3.5]] Out[182]: A (2, 3] 3 (3, 4] 4

使用 Interval来选择,将只返回严格匹配(从pandas0.25.0开始)。

In [183]: df.loc[pd.Interval(1, 2)] Out[183]: A 2 Name: (1, 2], dtype: int64

试图选择一个没有被严格包含在 IntervalIndex 内的区间Interval,将会出发KeyError错误。

In [7]: df.loc[pd.Interval(0.5, 2.5)] --------------------------------------------------------------------------- KeyError: Interval(0.5, 2.5, closed='right')


In [184]: idxr = df.index.overlaps(pd.Interval(0.5, 2.5)) In [185]: idxr Out[185]: array([ True, True, True, False]) In [186]: df[idxr] Out[186]: A (0, 1] 1 (1, 2] 2 (2, 3] 3 使用 cut 和 qcut来为数据分块

cut() 和 qcut() 都将返回一个分类Categorical 对象,并且每个分块区域都会以 分类索引IntervalIndex的方式被创建并保存在它的.categories属性中。

In [187]: c = pd.cut(range(4), bins=2) In [188]: c Out[188]: [(-0.003, 1.5], (-0.003, 1.5], (1.5, 3.0], (1.5, 3.0]] Categories (2, interval[float64]): [(-0.003, 1.5] < (1.5, 3.0]] In [189]: c.categories Out[189]: IntervalIndex([(-0.003, 1.5], (1.5, 3.0]], closed='right', dtype='interval[float64]')

cut() 也可以接受一个 IntervalIndex 作为他的 bins 参数,这样可以使用一个非常有用的pandas的写法。 首先,我们调用 cut() 在一些数据上面,并且将 bins设置为某一个固定的数 ,从而生成bins。

随后,我们可以在其他的数据上调用 cut(),并传入.categories 的值,作为 bins参数。这样新的数据就也将会被分配到同样的bins里面

In [190]: pd.cut([0, 3, 5, 1], bins=c.categories) Out[190]: [(-0.003, 1.5], (1.5, 3.0], NaN, (-0.003, 1.5]] Categories (2, interval[float64]): [(-0.003, 1.5] < (1.5, 3.0]]

任何落在bins之外的数据都将会被设为 NaN


如果我们需要经常地使用步进区间,我们可以使用 interval_range() 函数,结合 start, end, 和 periods来建立一个 IntervalIndex 对于数值型的间隔,默认的 interval_range间隔频率是1,对于datetime类型的间隔则是日历日。

In [191]: pd.interval_range(start=0, end=5) Out[191]: IntervalIndex([(0, 1], (1, 2], (2, 3], (3, 4], (4, 5]], closed='right', dtype='interval[int64]') In [192]: pd.interval_range(start=pd.Timestamp('2017-01-01'), periods=4) Out[192]: IntervalIndex([(2017-01-01, 2017-01-02], (2017-01-02, 2017-01-03], (2017-01-03, 2017-01-04], (2017-01-04, 2017-01-05]], closed='right', dtype='interval[datetime64[ns]]') In [193]: pd.interval_range(end=pd.Timedelta('3 days'), periods=3) Out[193]: IntervalIndex([(0 days 00:00:00, 1 days 00:00:00], (1 days 00:00:00, 2 days 00:00:00], (2 days 00:00:00, 3 days 00:00:00]], closed='right', dtype='interval[timedelta64[ns]]')

freq 参数可以被用来明确非默认的频率,并且可以充分地利用各种各样的 frequency aliases datetime类型的时间间隔。

In [194]: pd.interval_range(start=0, periods=5, freq=1.5) Out[194]: IntervalIndex([(0.0, 1.5], (1.5, 3.0], (3.0, 4.5], (4.5, 6.0], (6.0, 7.5]], closed='right', dtype='interval[float64]') In [195]: pd.interval_range(start=pd.Timestamp('2017-01-01'), periods=4, freq='W') Out[195]: IntervalIndex([(2017-01-01, 2017-01-08], (2017-01-08, 2017-01-15], (2017-01-15, 2017-01-22], (2017-01-22, 2017-01-29]], closed='right', dtype='interval[datetime64[ns]]') In [196]: pd.interval_range(start=pd.Timedelta('0 days'), periods=3, freq='9H') Out[196]: IntervalIndex([(0 days 00:00:00, 0 days 09:00:00], (0 days 09:00:00, 0 days 18:00:00], (0 days 18:00:00, 1 days 03:00:00]], closed='right', dtype='interval[timedelta64[ns]]')

此外, closed 参数可以用来声明哪个边界是包含的。默认情况下,间隔的右界是包含的。

In [197]: pd.interval_range(start=0, end=4, closed='both') Out[197]: IntervalIndex([[0, 1], [1, 2], [2, 3], [3, 4]], closed='both', dtype='interval[int64]') In [198]: pd.interval_range(start=0, end=4, closed='neither') Out[198]: IntervalIndex([(0, 1), (1, 2), (2, 3), (3, 4)], closed='neither', dtype='interval[int64]')


使用start, end, 和 periods可以从 start 到 end(包含)生成一个平均分配的间隔,在返回IntervalIndex中生成periods这么多的元素(译者:区间)。

In [199]: pd.interval_range(start=0, end=6, periods=4) Out[199]: IntervalIndex([(0.0, 1.5], (1.5, 3.0], (3.0, 4.5], (4.5, 6.0]], closed='right', dtype='interval[float64]') In [200]: pd.interval_range(pd.Timestamp('2018-01-01'), .....: pd.Timestamp('2018-02-28'), periods=3) .....: Out[200]: IntervalIndex([(2018-01-01, 2018-01-20 08:00:00], (2018-01-20 08:00:00, 2018-02-08 16:00:00], (2018-02-08 16:00:00, 2018-02-28]], closed='right', dtype='interval[datetime64[ns]]') 其他索引常见问题 数值索引

使用数值作为各维度的标签,再基于标签进行索引是一个非常痛苦的话题。在Scientific Python社区的邮件列表中,进行着剧烈的争论。在Pandas中,我们一般性的观点是,标签比实际的(用数值表示的)位置更为重要。因此,对于使用数值作为标签的的对象来说,只有基于标签的索引才可以在标准工具,例如.loc方法,中正常使用。下面的代码将引发错误:

In [201]: s = pd.Series(range(5)) In [202]: s[-1] --------------------------------------------------------------------------- KeyError Traceback (most recent call last) in ----> 1 s[-1] /pandas/pandas/core/series.py in __getitem__(self, key) 1062 key = com.apply_if_callable(key, self) 1063 try: -> 1064 result = self.index.get_value(self, key) 1065 1066 if not is_scalar(result): /pandas/pandas/core/indexes/base.py in get_value(self, series, key) 4721 k = self._convert_scalar_indexer(k, kind="getitem") 4722 try: -> 4723 return self._engine.get_value(s, k, tz=getattr(series.dtype, "tz", None)) 4724 except KeyError as e1: 4725 if len(self) > 0 and (self.holds_integer() or self.is_boolean()): /pandas/pandas/_libs/index.pyx in pandas._libs.index.IndexEngine.get_value() /pandas/pandas/_libs/index.pyx in pandas._libs.index.IndexEngine.get_value() /pandas/pandas/_libs/index.pyx in pandas._libs.index.IndexEngine.get_loc() /pandas/pandas/_libs/hashtable_class_helper.pxi in pandas._libs.hashtable.Int64HashTable.get_item() /pandas/pandas/_libs/hashtable_class_helper.pxi in pandas._libs.hashtable.Int64HashTable.get_item() KeyError: -1 In [203]: df = pd.DataFrame(np.random.randn(5, 4)) In [204]: df Out[204]: 0 1 2 3 0 -0.130121 -0.476046 0.759104 0.213379 1 -0.082641 0.448008 0.656420 -1.051443 2 0.594956 -0.151360 -0.069303 1.221431 3 -0.182832 0.791235 0.042745 2.069775 4 1.446552 0.019814 -1.389212 -0.702312 In [205]: df.loc[-2:] Out[205]: 0 1 2 3 0 -0.130121 -0.476046 0.759104 0.213379 1 -0.082641 0.448008 0.656420 -1.051443 2 0.594956 -0.151360 -0.069303 1.221431 3 -0.182832 0.791235 0.042745 2.069775 4 1.446552 0.019814 -1.389212 -0.702312



如果一个 序列 或者 数据表是单调递增或递减的,那么基于标签的切片行为的边界是可以超出索引的,这与普通的python列表的索引切片非常相似。索引的单调性可以使用 is_monotonic_increasing() 和is_monotonic_decreasing() 属性来检查

In [206]: df = pd.DataFrame(index=[2, 3, 3, 4, 5], columns=['data'], data=list(range(5))) In [207]: df.index.is_monotonic_increasing Out[207]: True # no rows 0 or 1, but still returns rows 2, 3 (both of them), and 4: In [208]: df.loc[0:4, :] Out[208]: data 2 0 3 1 3 2 4 3 # slice is are outside the index, so empty DataFrame is returned In [209]: df.loc[13:15, :] Out[209]: Empty DataFrame Columns: [data] Index: []


In [210]: df = pd.DataFrame(index=[2, 3, 1, 4, 3, 5], .....: columns=['data'], data=list(range(6))) .....: In [211]: df.index.is_monotonic_increasing Out[211]: False # OK because 2 and 4 are in the index In [212]: df.loc[2:4, :] Out[212]: data 2 0 3 1 1 2 4 3 # 0 is not in the index In [9]: df.loc[0:4, :] KeyError: 0 # 3 is not a unique label In [11]: df.loc[2:3, :] KeyError: 'Cannot get right slice bound for non-unique label: 3'

Index.is_monotonic_increasing和Index.is_monotonic_decreasing方法只能进行弱单调性的检查。要进行严格的单调性检查,你可以配合 is_unique() 方法一起使用。

In [213]: weakly_monotonic = pd.Index(['a', 'b', 'c', 'c']) In [214]: weakly_monotonic Out[214]: Index(['a', 'b', 'c', 'c'], dtype='object') In [215]: weakly_monotonic.is_monotonic_increasing Out[215]: True In [216]: weakly_monotonic.is_monotonic_increasing & weakly_monotonic.is_unique Out[216]: False 终止点被包含在内


In [217]: s = pd.Series(np.random.randn(6), index=list('abcdef')) In [218]: s Out[218]: a 0.301379 b 1.240445 c -0.846068 d -0.043312 e -1.658747 f -0.819549 dtype: float64


In [219]: s[2:5] Out[219]: c -0.846068 d -0.043312 e -1.658747 dtype: float64


s.loc['c':'e' + 1]


In [220]: s.loc['c':'e'] Out[220]: c -0.846068 d -0.043312 e -1.658747 dtype: float64




In [221]: series1 = pd.Series([1, 2, 3]) In [222]: series1.dtype Out[222]: dtype('int64') In [223]: res = series1.reindex([0, 4]) In [224]: res.dtype Out[224]: dtype('float64') In [225]: res Out[225]: 0 1.0 4 NaN dtype: float64 In [226]: series2 = pd.Series([True]) In [227]: series2.dtype Out[227]: dtype('bool') In [228]: res = series2.reindex_like(series1) In [229]: res.dtype Out[229]: dtype('O') In [230]: res Out[230]: 0 True 1 NaN 2 NaN dtype: object

这是因为上述(重新)索引的操作悄悄地插入了 NaNs ,因此dtype也就随之发生改变了。如果你在使用一些numpy的ufuncs,如 numpy.logical_and时,将会导致一些问题。

参见 this old issue了解更详细的讨论过程




CopyRight 2018-2019 办公设备维修网 版权所有 豫ICP备15022753号-3